花费 45 ms
[Search Engine] 搜索引擎技术之网络爬虫

  随着互联网的大力发展,互联网称为信息的主要载体,而如何在互联网中搜集信息是互联网领域面临的一大挑战。网络爬虫技术是什么?其实网络爬虫技术就是指的网络数据的抓取,因为在网络中抓取数据是具有关联性 ...

Fri Sep 04 08:33:00 CST 2015 1 5142
solr 主从模式和solrcloud集群模式

主从模式 主节点有单点故障问题:没有主从自动切换,没有failover,主机down掉了的话,整个数据变成只读。并且需要一台机单独做索引,浪费资源,所有数据都需要在这台机器上单独存在一份,索引变化较 ...

Fri Jun 24 19:52:00 CST 2016 0 4058
多线程异步非阻塞C语言爬虫

最近用C写了个爬虫,纯属练习,离实用还相差甚远。 下载源码:ISeeSpider bloom.h实现布隆过滤器算法。对一条url拆分为domain和path两部分,bloomDomain函数判断d ...

Wed Feb 15 03:32:00 CST 2012 7 5548
[Search Engine] 搜索引擎技术之倒排索引

  倒排索引是搜索引擎中最为核心的一项技术之一,可以说是搜索引擎的基石。可以说正是有了倒排索引技术,搜索引擎才能有效率的进行数据库查找、删除等操作。 1. 倒排索引的思想   倒排索引源于实际应用 ...

Tue Sep 08 22:35:00 CST 2015 0 4305
[Search Engine] 搜索引擎分类和基础架构概述

  大家一定不会多搜索引擎感到陌生,搜索引擎是互联网发展的最直接的产物,它可以帮助我们从海量的互联网资料中找到我们查询的内容,也是我们日常学习、工作和娱乐不可或缺的查询工具。之前本人也是经常使用G ...

Wed Sep 02 19:34:00 CST 2015 0 4089
Lucene 对文档打分的规则整理记录

摘引自:http://www.cnblogs.com/forfuture1978/archive/2010/02/08/1666137.html Lucene的搜索结果默认按相关度排序,这个相 ...

Wed Jul 30 19:17:00 CST 2014 1 4167
[原创] - C#编程大幅提高OUTLOOK的邮件搜索能力!

使用OUTLOOK, 你有没有遇到过上图的问题? 多达18419封邮件! 太多了, 每次想找一个邮件都非常耗时, 想办法解决这个问题成了一件非常紧迫的事情. 利用MS Search当然可以, 但是 ...

Tue Jul 30 02:44:00 CST 2013 10 2340
lucene 基本原理整理

基本原理:http://www.cnblogs.com/forfuture1978/archive/2009/12/14/1623594.html 所有过程:http://www.cnblogs.c ...

Wed Jul 16 19:16:00 CST 2014 0 2770
自己动手写搜索引擎

radic 是我用go语言实现搜索引擎的索引部分,包括:倒排索引正排索引分布式索引 使用举例 首先需要go get github.com/Orisun/radic 更多API参见radic. ...

Mon Aug 26 01:06:00 CST 2019 0 427

 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM